Recognizing the surrounding environment at low latency is critical in autonomous driving. In real-time environment, surrounding environment changes when processing is over. Current detection models are incapable of dealing with changes in the environment that occur after processing. Streaming perception is proposed to assess the latency and accuracy of real-time video perception. However, additional problems arise in real-world applications due to limited hardware resources, high temperatures, and other factors. In this study, we develop a model that can reflect processing delays in real time and produce the most reasonable results. By incorporating the proposed feature queue and feature select module, the system gains the ability to forecast specific time steps without any additional computational costs. Our method is tested on the Argoverse-HD dataset. It achieves higher performance than the current state-of-the-art methods(2022.10) in various environments when delayed . The code is available at https://github.com/danjos95/DADE
translated by 谷歌翻译
Hinged on the representation power of neural networks, neural radiance fields (NeRF) have recently emerged as one of the promising and widely applicable methods for 3D object and scene representation. However, NeRF faces challenges in practical applications, such as large-scale scenes and edge devices with a limited amount of memory, where data needs to be processed sequentially. Under such incremental learning scenarios, neural networks are known to suffer catastrophic forgetting: easily forgetting previously seen data after training with new data. We observe that previous incremental learning algorithms are limited by either low performance or memory scalability issues. As such, we develop a Memory-Efficient Incremental Learning algorithm for NeRF (MEIL-NeRF). MEIL-NeRF takes inspiration from NeRF itself in that a neural network can serve as a memory that provides the pixel RGB values, given rays as queries. Upon the motivation, our framework learns which rays to query NeRF to extract previous pixel values. The extracted pixel values are then used to train NeRF in a self-distillation manner to prevent catastrophic forgetting. As a result, MEIL-NeRF demonstrates constant memory consumption and competitive performance.
translated by 谷歌翻译
元加强学习(META-RL)是一种方法,即从解决各种任务中获得的经验被蒸馏成元政策。当仅适应一个小(或仅一个)数量的步骤时,元派利赛能够在新的相关任务上近距离执行。但是,采用这种方法来解决现实世界中的问题的主要挑战是,它们通常与稀疏的奖励功能相关联,这些功能仅表示任务是部分或完全完成的。我们考虑到某些数据可能由亚最佳代理生成的情况,可用于每个任务。然后,我们使用示范(EMRLD)开发了一类名为“增强元RL”的算法,即使在训练过程中获得了次优的指导,也可以利用此信息。我们展示了EMRLD如何共同利用RL和在离线数据上进行监督学习,以生成一个显示单调性能改进的元数据。我们还开发了一个称为EMRLD-WS的温暖开始的变体,该变体对于亚最佳演示数据特别有效。最后,我们表明,在包括移动机器人在内的各种稀疏奖励环境中,我们的EMRLD算法显着优于现有方法。
translated by 谷歌翻译
实际数据集中不可避免地有许多错误标记的数据。由于深度神经网络(DNNS)具有记忆标签的巨大能力,因此需要强大的训练方案来防止标签错误降低DNN的概括性能。当前的最新方法提出了一种共同训练方案,该方案使用与小损失相关的样本训练双网络。但是,实际上,培训两个网络可以同时负担计算资源。在这项研究中,我们提出了一种简单而有效的健壮培训计划,该计划仅通过培训一个网络来运行。在训练过程中,提出的方法通过从随机梯度下降优化形成的重量轨迹中抽样中间网络参数来生成时间自我启动。使用这些自我归档评估的损失总和用于识别错误标记的样品。同时,我们的方法通过将输入数据转换为各种形式,并考虑其协议以识别错误标记的样本来生成多视图预测。通过结合上述指标,我们介绍了提出的{\ it基于自动化的鲁棒训练}(SRT)方法,该方法可以用嘈杂的标签过滤样品,以减少其对训练的影响。广泛使用的公共数据集的实验表明,所提出的方法在某些类别中实现了最新的性能,而无需训练双网络。
translated by 谷歌翻译
尽管具有卷积神经网络(CNN)的图像超分辨率(SR)的突破性进步,但由于SR网络的计算复杂性很高,SR尚未享受无处不在的应用。量化是解决此问题的有前途方法之一。但是,现有的方法无法量化低于8位的位宽度的SR模型,由于固定的位宽度量化量的严重精度损失。在这项工作中,为了实现高平均比重减少,准确性损失较低,我们建议针对SR网络的新颖的内容感知动态量化(CADYQ)方法,该方法将最佳位置分配给本地区域和层,并根据输入的本地内容适应。图片。为此,引入了一个可训练的位选择器模块,以确定每一层和给定的本地图像补丁的适当位宽度和量化水平。该模块受量化灵敏度的控制,该量化通过使用贴片的图像梯度的平均幅度和层的输入特征的标准偏差来估计。拟议的量化管道已在各种SR网络上进行了测试,并对几个标准基准进行了广泛评估。计算复杂性和升高恢复精度的显着降低清楚地表明了SR提出的CADYQ框架的有效性。代码可从https://github.com/cheeun/cadyq获得。
translated by 谷歌翻译
现代深度学习在各个领域取得了巨大的成功。但是,它需要标记大量数据,这是昂贵且劳动密集型的。积极学习(AL)确定要标记的最有用的样本,对于最大化培训过程的效率变得越来越重要。现有的AL方法主要仅使用单个最终固定模型来获取要标记的样品。这种策略可能还不够好,因为没有考虑为给定培训数据的模型的结构不确定性来获取样品。在这项研究中,我们提出了一种基于常规随机梯度下降(SGD)优化产生的时间自我汇总的新颖获取标准。通过捕获通过SGD迭代获得的中间网络权重来获得这些自我复杂模型。我们的收购功能依赖于学生和教师模型之间的一致性度量。为学生模型提供了固定数量的时间自我安装模型,并且教师模型是通过平均学生模型来构建的。使用拟议的获取标准,我们提出了AL算法,即基于学生教师的AL(ST-Conal)。在CIFAR-10,CIFAR-100,CALTECH-256和TINY IMAGENET数据集上进行的图像分类任务进行的实验表明,所提出的ST-Conal实现的性能要比现有的获取方法要好得多。此外,广泛的实验显示了我们方法的鲁棒性和有效性。
translated by 谷歌翻译
人们对从长尾班级分布中学习的具有挑战性的视觉感知任务越来越兴趣。训练数据集中的极端类失衡使模型偏向于识别多数级数据而不是少数级数据。最近,已经提出了两个分支网络的双分支网络(DBN)框架。传统的分支和重新平衡分支用于提高长尾视觉识别的准确性。重新平衡分支使用反向采样器来生成类平衡的训练样本,以减轻由于类不平衡而减轻偏见。尽管该策略在处理偏见方面非常成功,但使用反向采样器进行培训可以降低表示形式的学习绩效。为了减轻这个问题,常规方法使用了精心设计的累积学习策略,在整个培训阶段,重新平衡分支的影响逐渐增加。在这项研究中,我们旨在开发一种简单而有效的方法,以不需要优化的累积学习而在不累积学习的情况下提高DBN的性能。我们设计了一种称为双边混合增强的简单数据增强方法,该方法将统一采样器中的一个样品与反向采样器中的另一个样品结合在一起,以产生训练样本。此外,我们介绍了阶级条件的温度缩放,从而减轻对拟议的DBN结构的多数级别的偏见。我们对广泛使用的长尾视觉识别数据集进行的实验表明,双边混合增加在改善DBN的表示性能方面非常有效,并且所提出的方法可以实现某些类别的先进绩效。
translated by 谷歌翻译
图像翘曲的目的是将矩形网格定义的图像重新设计为任意形状。最近,隐式神经功能在以连续方式表示图像时表现出了显着的性能。然而,独立的多层感知器受到学习高频傅立叶系数的影响。在本文中,我们提出了图像翘曲(LTEW)的局部纹理估计器,然后提出隐式神经表示,以将图像变形为连续形状。从深度超分辨率(SR)主链估计的局部纹理乘以坐标转换的局部变化雅各布矩阵,以预测扭曲的图像的傅立叶响应。我们的基于LTEW的神经功能优于现有的扭曲方法,用于不对称尺度的SR和跨术变换。此外,我们的算法很好地概括了任意坐标变换,例如具有较大放大因子和等应角投影(ERP)的透视变换,这些变换在训练中未提供。
translated by 谷歌翻译
过滤器修剪的目标是搜索不重要的过滤器以删除以便使卷积神经网络(CNNS)有效而不牺牲过程中的性能。挑战在于找到可以帮助确定每个过滤器关于神经网络的最终输出的重要或相关的信息的信息。在这项工作中,我们分享了我们的观察说,预先训练的CNN的批量标准化(BN)参数可用于估计激活输出的特征分布,而无需处理训练数据。在观察时,我们通过基于预先训练的CNN的BN参数评估每个滤波器的重要性来提出简单而有效的滤波修剪方法。 CiFar-10和Imagenet的实验结果表明,该方法可以在准确性下降和计算复杂性的计算复杂性和降低的折衷方面具有和不进行微调的卓越性能。
translated by 谷歌翻译
最近有一种隐式神经功能棚灯,代表任意分辨率的图像。然而,独立的多层Perceptron(MLP)在学习高频分量中显示了有限的性能。在本文中,我们提出了一种局部纹理估计器(LTE),用于自然图像的主要频率估计器,使得隐式功能以连续方式重建图像的同时捕获精细细节。当用深层超分辨率(SR)架构共同培训时,LTE能够在2D傅里叶空间中表征图像纹理。我们表明,基于LTE的神经功能优于所有数据集的任意级别的现有深度SR方法,以及所有规模因素。此外,与以前的作品相比,我们的实施呈现了最短的运行时间。源代码将打开。
translated by 谷歌翻译